機器學習系統需要的資料格式

2017 iT 邦幫忙鐵人賽

DAY 3

Big Data

從Data Engineer、Data Architecture到Data Science系列第 8 篇

2017鐵人賽

wush978

2016-12-27 00:18:45

2197 瀏覽

分享至

之前我分享了對於一般線上系統與分析系統對於資料的不同需求，並且針對他們不同的需求，提出我個人認為，在工程資源有限時比較好的選擇。接下來我想拿機器學習系統的需求與線上系統、分析系統做比較。以廣告系統為例，一個常見的機器學習系統，就是對每一個bid request後面代表的事件預測使用者點擊廣告的機率。

就我所知，機器學習系統可以分成兩種作法。一般的作法會把整套系統分成兩塊：線上預測與線下學習。通常我們會先累計「可以學習」的資料，在線下透過各種方法讓機器學出一個模型。接下來再把模型放到線上系統，即時的對每一個事件做預測。另外一種作法，則是讓機器學習系統在收到事件後，做預測的同時，即時更新模型。兩者最主要的差異，就是前者是將預測與學習做分割，而後者是同時做預測與學習。以下我們先針對這兩種架構做討論。

在線上系統中同時進行預測與學習

這種作法的資料格式需求，會非常近似於線上系統。無論是預測與學習，都可以視為是線上服務的一部分，所以一個基本門檻就是：處理單一事件時，反應時間要夠快。也因為後者的作法，需求貼近線上服務，所以資料格式的設計就很單純，程式碼在維護的成本也比較低。但是代價則是在多服務器時，讓機器學習系統同步的難度很高。

( 出處： http://f5loadbalancer.com/f5-load-balancer-wiki/ )

現代的線上系統，常常用多台機器來平行處理事件，讓系統能夠在很短的時間處理大量的事件。也因此，每一台機器會接收到的事件數量、事件內容會不太一樣。因此，如果採用「學習」與「預測」同時在線上處理的架構，就會發生每一台機器不一致的狀況。而機器學習系統除了處理單一事件時，反應時間要夠快這樣的需求之外，還有更重要的需求：預測精準（無論那一種架構的機器學習系統，都要符合這樣的需求，否則不如不要搭建機器學習系統）。而一個常識是：越多的學習資料，機器學習系統就越準。因此，直接以常見的方式平行擴充服務器，這種架構的機器學習系統的預測精準度會比較低，因為每一個模型所學習的資料只有1/n ( n 為服務器的個數 )。

這種架構的另一個問題，會在運用*監督式學習*時發生。監督式學習的學習資料中，需要有每一個事件的反饋資訊。舉例來說，預測點擊率的機器學習系統，學習時需要知道事件的結果（使用者有無點擊廣告）。但是這樣的結果，並不會和事件同時被觀察到，而是需要等待。如果等待的時間夠短，我們可以把事件放在Memory Buffer中，等若干分鐘後再做學習。如果等待的時間要很長，那就要花額外的工程能量來克服（建構對應的database... 等等）。

在線上做預測，線下作學習

這種作法的資料格式需求，則會比較複雜。前面我們提過，在線上系統的需求是：處理單一事件時，反應時間要快，而分析系統的需求是：處理全部事件時的整體時間要短。而分析系統的另一個挑戰是查詢指令的不確定性。

機器學習系統，在線上預測的需求，則也是類似：預測單一事件的時間要短以及預測精準。也因此，這部份的系統設計也是接近線上系統的設計。而機器學習系統在線下學習時，又分成兩種工作：模型的調校，與例行性的學習。模型的調校，比較接近一般分析系統的情境：我們很難事先知道會使用的資料欄位。而我們對每一次調校能容許的等待時間，比一般的分析系統下查詢的時間更長。也因此，前面介紹給分析系統使用的資料格式(Ex : 將資料以column-based的方式儲存於檔案系統)，其實也是滿足這樣的工作需求。而一般在工程資源有限時，我們會直接用相同的作法解決讓模型的調校與例行性的學習的需求。(在大公司，這兩種工作的確是會切開的)。

到這裡，讀者可能覺得故事很單純：那我們就在線上系統使用row based的資料格式(ex: protocol buffer或avro)做預測，線下系統使用column based的資料格式做學習就好了。但是機器學習系統，通常還需要做把資料轉換成線性代數中的向量後，才能做學習與預測。這個問題在遇到大量類別型變數時，特別嚴重，而廣告系統剛好就是其中一個例子。更成熟的機器學習系統，還會對事件做特徵抽取(feature extraction)或特徵工程(feature engineer)。前面提到，機器學習系統的基本需求是預測精準，而預測與學習的一致性是預測精準的基本需求之一。

ps. 預測與學習的一致性是指，事件在預測時，或是在學習時，轉換成線性代數的向量，要一致。

所以，如果我們在線上系統使用row based的資料格式，線下系統使用column based或是其他的資料格式，而且各自寫一個程式來將事件轉換成線性代數中的向量，那就會帶來極大的維護難題：要讓兩支輸入不同（雖然資訊相同，但是資料格式不同）的程式，輸出的結果一模一樣。在工程能量有限時，我們應該避免這樣的狀況。

因此，我認為採用這樣的架構時，在線下學習，仍然應該採用以row based儲存於檔案系統的方式，儲存與處理資料。儘量讓線下學習與線上預測使用相同的程式碼，是在工程能量有限時很重要的考量。

這樣做的代價，是在線下學習時的時間更長。但是因為我們對每一次調校能容許的等待時間，比一般的分析系統下查詢的時間更長，所以我在取捨之下，會更喜歡這種作法。